【广发金融工程】精选量化研究系列之二:高频价量数据的因子化方法 您所在的位置:网站首页 多因子 ic 【广发金融工程】精选量化研究系列之二:高频价量数据的因子化方法

【广发金融工程】精选量化研究系列之二:高频价量数据的因子化方法

2023-06-18 17:53| 来源: 网络整理| 查看: 265

(3)独立样本多。高频数据开发的因子一般调仓周期较短,意味着在检验因子有效性的时候,同一段测试期内具有更多的独立样本。例如,在一年的测试期内,只有12个独立的样本段用于检验月频调仓的因子,与之相比,有约50个独立的时段用于检验周频调仓因子,有超过240个独立的时段用于检验日频调仓的因子。独立样本的增多有助于检验高频因子的有效性。

高频数据挖掘因子的难点在于数据维度大、噪声高。因子挖掘的主要方法包括:

(1)人工构建因子:凭借专业投资者的经验或者是参阅已发表的文献,从高频数据中提炼出有选股能力的特征。包括将日频的动量反转因子、波动率因子等用高频数据实现,测试选股性能。

(2)机器挖掘因子。机器学习方法擅长从数据中寻找规律和特征,是高频数据因子挖掘的有力工具。一般采用遗传规划算法或者深度学习算法从高频数据中提炼因子。具体可以参考报告《深度学习框架下高频数据因子挖掘》。

本报告将股票日内分钟行情数据因子化,构建了46个日频价量因子。采用IC测试和多空收益检验,筛选了其中12个表现较好的因子。本报告的目的是通过对因子构建方法的讨论和比较分析,为投资者的因子挖掘工作提供参考。

2

因子构建方法和主要性能指标

2.1 因子构建方法

因子构建分为两步,第一步是对日内高频信息进行计算,生成日频因子,第二步是对日频因子进行加窗“平滑”,生成平滑后的因子。本报告主要采用平滑后的因子选股和进行相关测试。

本报告构建因子时,从四大类不同的角度构建因子:日内价格相关因子、日内价量相关因子、盘前信息因子、特定时段采样因子。其中,日内价格相关的因子是由日内收益率的高阶统计量和日内价格形态衍生的因子,共计10个因子。日内价量相关因子包括成交量分布以及用价量关系构建的因子,共计13个因子。盘前信息因子主要是从开盘集合竞价信息中提炼的因子,共计7个因子。特定时段采样因子主要是指根据一定规则筛选出重要时段,在该时段采样并计算提取的因子,主要包括尾盘数据构建的因子和大成交量时段构建的因子,共计16个因子。

用单日日内信息构建的因子仅包含当日的股票价量信息。一般来说,数据观察期窗口很短的因子对未来多日的预测能力比不上观察期窗口较长的因子。为了延长观察窗口以获取对未来5个交易日左右的预测能力,本报告一般采用5天的观察期将日频因子进行均值处理平滑,即MA5处理。设D日的日频因子为f_D,则MA5平滑后因子为

在本报告最后一节,比较了MA5、MA20、EMA5、EMA20等4种不同方法处理的因子的性能差异。其中,EMA5和EMA20分别表示5日指数移动平均和20日指数移动平均,

其中,EMA5的ρ=2/(5+1),EMA20的ρ=2/(20+1)。与简单移动平均相比,指数移动平均增加了最近样本的权重。

2.2 因子分析指标

因子分析时,首先分析因子与常见风格因子的相关性,由于本报告考察的是日内高频数据生成的因子,因此我们主要考虑高频因子和对数市值、月动量、月波动率、月换手率等4个低频风格因子的相关性。在将高频信息因子中性化时,也是采用上述4个风格因子对高频信息因子进行回归,获得中性化的因子。

收益预测时,统一按照周度调仓的假设进行分析。T日收盘后计算的因子预测的是从T+1日开盘后,股票未来5个交易日的收益率(以T+1日开盘价为基准),因子IC测试和收益回测都按照T+1日开盘价进行计算。

股票池:全市场或者中证500指数成分股,剔除新股、ST个股、因子计算当日和交易日停牌或者涨跌停的个股。

考察区间:2010年1月至2021年6月。

IC:T日因子与T+1日开盘后5个交易日收益率的秩相关系数。

IC胜率:IC与因子方向相同的比率(因子方向按照整个回测区间因子IC均值的正负号确定)。

年化ICIR:IC绝对值与IC标准差之比的年化值,即

其中N表示一年内包含的交易周数。

在选股测试时,按照因子方向和因子取值将股票池内股票平均分为10组,第10组为多头组合,第1组为空头组合,组内股票等权。

多空超额收益率:因子多头组合收益相对因子空头组合的年化超额,越大则表示因子选股能力越强。

多空超额胜率:因子多头组合收益相对因子空头组合的超额胜率。

正Alpha:因子多头组合收益相对股票池股票平均收益的年化超额,越大则表示因子多头相对基准的超额收益越高。

负Alpha:因子空头组合收益相对股票池股票平均收益的年化超额,越小(为负且绝对值越大)则表示因子空头相对基准负的超额收益越高。

本报告的多空超额收益率、正Alpha、负Alpha是分别根据各自组合的累计超额计算出来的,由于存在复利效应,因子的正Alpha、负Alpha之差一般与因子多空超额收益率略有差异。

3

日内价格相关因子

3.1 因子计算方法

价格数据中蕴含了丰富的股票信息,在传统多因子体系中,股价反转、波动率都是重要的风格因子。在高频数据中,可以用类似方法构建相关的特征。本报告根据收益率的高阶统计量构建了如下选股因子:

根据日内股价的形态,可以构建如下因子:

3.2 与风格因子相关性

考察日内价格相关因子与低频风格因子的相关性。在回测区间内,上述价格相关因子与风格因子的相关性如下表所示。

从相关性数据来看,已实现偏度、趋势占比、日内收益率因子与低频风格因子的相关性较低。

相关性较高的数据展示了如下特点:高波动股票(低频波动率较高)一般具有较大的已实现方差,小市值股票更容易产生高频收益率的厚尾现象(更高的已实现峰度),低波动和低换手的个股日内最大回撤(绝对值)较小。

3.3 因子全市场选股IC

在回测期内,日内价格相关因子以及MA5平滑后的因子的IC如下表所示。按照5日窗口平滑的因子对未来5天的收益预测能力一般强于原始的因子,尤其是real_skew和trendratio、ret_intraday这三个因子。从原因子和因子MA5的ICIR来看,预测能力较强的日内价格因子是real_skew和ret_intraday。

MA5平滑后,real_skew因子的IC均值为-4.48%,IC胜率为79.46%,年化ICIR为5.05。该因子长期表现比较稳定,在近2年依然表现出不错的收益预测能力。

ret_intraday因子MA5的IC均值为-4.94%,IC胜率为64.68%,年化ICIR为2.66。2017年以来,该因子收益预测能力有明显下降。

3.4 因子多空收益率

在全市场选股,考察MA5平滑后日内价格相关因子的选股能力。在回测区间内,上述价格相关因子选股表现如下表所示。其中表现较好的因子是real_skew和ret_intraday。

但如果将股票多空收益率分解为正Alpha收益和负Alpha收益,则可以看到上述因子的正Alpha收益显著低于负Alpha收益(绝对值)。

将MA5平滑后高频因子用对数市值、动量、波动率和换手率等4个风格因子中性化,中性化后因子选股能力如下表所示。中性化之后,real_skew和ret_intraday的多空收益略有下降。

分别在全市场和中证500指数成分股内进行因子选股测试。全市场选股时,real_skew因子MA5的多空收益率为29.27%,多空胜率为72.88%,多空收益最大回撤为-8.49%,多头年换手率为43.0倍。MA5平滑后因子表现显著优于原因子。

中证500指数成分股内选股时,real_skew因子MA5的多空收益率为24.69%,多空胜率为65.82%,多空收益最大回撤为-14.08%,多头年换手率为41.6倍。

全市场选股时,ret_intraday因子MA5的多空收益率为34.23%,多空胜率为61.84%,多空收益最大回撤为-14.38%,多头年换手率为44.1倍。MA5平滑后因子表现优于原因子。

中证500指数成分股内选股时,ret_intraday因子MA5的多空收益率为19.70%,多空胜率为58.59%,多空收益最大回撤为-24.97%,多头年换手率为42.7倍。

4

日内价量相关因子

4.1 因子计算方法成交量也是日内行情信息的重要组成部分。一方面,成交量的分布可以反映投资者的行为特征,另一方面,成交量与价格或者价格走势的关系可以确认价格形态的信息。

将每天的4个小时交易时间按照时间平均分为8段,根据每段的成交量占全天成交量之比,构建如下因子:

考虑到价格和成交量的相互关系,可以构建以下因子:

4.2 与风格因子相关性

考察日内价量相关性因子与风格因子的相关性。在回测区间内,上述价量相关因子与风格因子的相关性如下表所示。

从相关性数据来看,大部分价量相关性因子与上述低频风格因子的相关性较低。只有Amihud非流动性因子展示出了较强的风格相关性:该因子值较大的股票一般市值较小、换手率和波动率较低。

4.3 因子全市场选股IC

日内价量相关因子以及平滑后的因子的IC如下表所示。按照5日窗口平滑的因子对未来5天的收益预测能力一般强于原始的因子。从原因子和因子MA5的ICIR来看,预测能力较强的价量相关因子是ratio_volumeH4、corr_VP、corr_VRlag、Amihud_illiq。

在回测期内,MA5平滑后ratio_volumeH4因子的IC均值为3.73%,IC胜率为78.20%,年化ICIR为4.42。

corr_VP因子MA5的IC均值为-6.15%,IC胜率为76.58%,年化ICIR为4.74。从累计IC走势来看,该因子近两年收益预测能力有所下降。

corr_VRlag因子MA5的IC均值为-5.46%,IC胜率为69.91%,年化ICIR为3.76。从累计IC走势来看,该因子近两年收益预测能力略有下降。

Amihud_illiq因子MA5的IC均值为6.57%,IC胜率为72.61%,年化ICIR为3.68。从累计IC走势来看,该因子2017年以来收益预测能力略有下降。

4.4 因子多空收益率

在全市场选股,考察MA5平滑后价量相关因子的选股能力。在回测区间内,上述价量相关因子选股表现如下表所示。其中表现较好的因子是ratio_volumeH8、corr_VP、corr_VRlag和Amihud_illiq。

但如果将股票多空收益率分解为正Alpha收益和负Alpha收益,则可以看到除了Amihud_illiq,其他上述因子的负Alpha收益(绝对值)显著超过正Alpha收益。Amihud_illiq因子的正Alpha和负Alpha收益基本接近。

将MA5高频因子用低频风格因子中性化,中性化后因子选股能力如下表所示。中性化对ratio_volumeH8、corr_VP的选股能力影响不大。corr_VRlag中性化之后选股能力略有下降,而原始Amihud_illiq因子和风格因子相关性较高,中性化之后收益率下降非常明显。

分别在全市场和中证500指数成分股内进行因子选股测试。全市场选股时,ratio_volumeH8因子MA5的多空收益率为33.91%,多空胜率为71.07%,多空收益最大回撤为-11.62%,多头年换手率为39.4倍。

中证500指数成分股内选股时,ratio_volumeH8因子MA5的多空收益率为30.19%,多空胜率为65.46%,多空收益最大回撤为-17.95%,多头年换手率为38.5倍。

全市场选股时,corr_VP因子MA5的多空收益率为47.57%,多空胜率为73.42%,多空收益最大回撤为-8.88%,多头年换手率为43.0倍。从多空收益来看,corr_VP因子近年来表现不佳。

中证500指数成分股内选股时,corr_VP因子MA5的多空收益率为34.51%,多空胜率为66.55%,多空收益最大回撤为-12.07%,多头年换手率为41.4倍。

全市场选股时,corr_VRlag因子MA5的多空收益率为31.87%,多空胜率为64.38%,多空收益最大回撤为-11.40%,多头年换手率为43.9倍。

中证500指数成分股内选股时,corr_VRlag因子MA5的多空收益率为20.61%,多空胜率为60.40%,多空收益最大回撤为-18.06%,多头年换手率为42.4倍。

全市场选股时,Amihud_illiq因子MA5的多空收益率为36.22%,多空胜率为65.64%,多空收益最大回撤为-23.80%,多头年换手率为23.4倍。从多空表现来看,Amihud_illiq因子今年来表现有明显下滑。

中证500指数成分股内选股时,Amihud_illiq因子MA5的多空收益率为20.90%,多空胜率为59.13%,多空收益最大回撤为-36.55%,多头年换手率为20.9倍。

5

盘前信息因子

5.1 因子计算方法盘前信息主要包括隔夜收益率(开盘价相对前收盘的收益率)和开盘前集合竞价信息。目前,A股证券交易所在每个交易日的9:15至9:25为开盘集合竞价时间。开盘集合竞价又分为两个阶段,其中第一阶段是9:15至9:20,该阶段允许撤销已经提交的订单;第二阶段是9:20至9:25,该阶段不允许撤销已经提交的订单。集合竞价信息反映出资金的试盘行为和多空双方的博弈。本报告考察隔夜收益率和集合竞价的相关因子如下所示。

5.2 与风格因子相关性

考察日内价量相关性因子与风格因子的相关性。在回测区间内,上述盘前信息因子与风格因子的相关性如下表所示。

从相关性数据来看,大部分盘前信息因子与上述低频风格因子的相关性较低。

5.3 因子全市场选股IC

盘前信息因子以及平滑后的因子的IC如下表所示。与日内价格因子和价量相关因子不同的是,MA5平滑并不能提升大部分盘前信息因子的预测能力。从原因子和因子MA5的ICIR来看,预测能力较强的价量相关因子是ret_overnight(原始日频因子)和ret_open2AH1和ret_open2AL1。

在回测期内,原始日频ret_overnight因子的IC均值为-4.41%,IC胜率为78.42%,年化ICIR为4.36。

ret_open2AH1因子MA5的IC均值为4.35%,IC胜率为72.97%,年化ICIR为3.97。

ret_open2AL1因子MA5的IC均值为2.51%,IC胜率为74.41%,年化ICIR为4.17。

5.4 因子多空收益率

在全市场选股,考察MA5平滑后盘前信息因子的选股能力。在回测区间内,上述因子选股表现如下表所示。其中表现较好的因子是ret_open2AH1和ret_open2AL1,而且多空收益的正Alpha收益略低于负Alpha收益(绝对值)。经过MA5平滑后,ret_overnight的选股能力较差。

将高频因子用低频风格因子中性化,中性化后因子选股能力如下表所示。中性化后,盘前信息因子的选股能力没有明显下降,甚至部分因子选股能力略有提升。

分别在全市场和中证500指数成分股内进行因子选股测试。全市场选股时,ret_open2AH1因子MA5的多空收益率为21.61%,多空胜率为63.29%,多空收益最大回撤为-7.33%,多头年换手率为41.0倍。

中证500指数成分股内选股时,ret_open2AH1因子MA5的多空收益率为14.67%,多空胜率为58.41%,多空收益最大回撤为-13.94%,多头年换手率为40.5倍。

全市场选股时,ret_open2AL1因子MA5的多空收益率为19.89%,多空胜率为70.16%,多空收益最大回撤为-5.07%,多头年换手率为33.0倍。

中证500指数成分股内选股时,ret_open2AL1因子MA5的多空收益率为17.72%,多空胜率为63.11%,多空收益最大回撤为-10.99%,多头年换手率为32.3倍。

6

特定时段采样因子

6.1 因子计算方法本报告将部分时段的数据进行重点分析,产生衍生因子。一般来说,开盘后半小时(9点半至10点)和收盘前半小时(14点半至收盘)的股票成交活跃,多空博弈激烈,蕴含的信息相对较多。本报告针对收盘前半小时的价量信息构建了如下因子。

在不同的成交中,大单成交与主力资金关联较大,蕴含的信息可能更多。本报告将个股在每个交易日的分钟成交量时间序列按照成交量大小排序,将分钟成交量排名前1/3的成交量定义为“大成交量”。针对大成交量对应的时刻的股价信息,可以构建大成交量相关因子。

6.2 与风格因子相关性

考察特定时段采样因子与风格因子的相关性。在回测区间内,上述因子与风格因子的相关性如下表所示。

从相关性数据来看,大部分特定时段采样因子与低频风格因子的相关性较低。只有real_varH8、real_varlarge等已实现方差因子与波动率因子有较强的正相关性。

6.3 因子全市场选股IC

特定时段采样因子以及平滑后的因子的IC如下表所示。一般而言,按照5日窗口平滑的因子对未来5天的收益预测能力强于原始的因子。从原因子和因子MA5的ICIR来看,预测能力较强的因子是ret_H8、real_skewlarge、corr_VPlarge 和corr_VRlaglarge。

在回测期内,ret_H8因子MA5的IC均值为-4.35%,IC胜率为74.59%,年化ICIR为4.01。该因子2017年以来的收益预测能力有模型下降。

real_skewlarge因子MA5的IC均值为-4.01%,IC胜率为80.51%,年化ICIR为5.44。

corr_VPlarge因子MA5的IC均值为-6.42%,IC胜率为77.80%,年化ICIR为5.38。

corr_VRlaglarge因子MA5的IC均值为-5.03%,IC胜率为74.01%,年化ICIR为4.04。

6.4 因子多空收益率

在全市场选股,考察MA5平滑后因子的选股能力。在回测区间内,上述因子选股表现如下表所示。ret_H8、real_skewlarge、corr_VPlarge和corr_VRlaglarge等因子也具有不错的多空收益表现。从正Alpha收益和负Alpha收益的对比来看,负Alpha收益(绝对值)明显强于正Alpha收益。

将高频因子用低频风格因子中性化,中性化后因子选股能力如下表所示。中性化之后,ret_H8因子选股能力基本不变,real_skewlarge、corr_VPlarge和corr_VRlaglarge因子选股能力略有下降。

分别在全市场和中证500指数成分股内进行因子选股测试。全市场选股时,ret_H8因子MA5的多空收益率为50.04%,多空胜率为77.03%,多空收益最大回撤为-6.26%,多头年换手率为41.7倍。

中证500指数成分股内选股时,ret_H8因子MA5的多空收益率为35.05%,多空胜率为66.91%,多空收益最大回撤为-11.20%,多头年换手率为40.4倍。

全市场选股时,real_skewlarge因子MA5的多空收益率为27.73%,多空胜率为77.22%,多空收益最大回撤为-7.66%,多头年换手率为42.5倍。

中证500指数成分股内选股时,real_skewlarge因子MA5的多空收益率为22.60%,多空胜率为66.37%,多空收益最大回撤为-8.96%,多头年换手率为41.1倍。

全市场选股时,corr_VPlarge因子MA5的多空收益率为49.82%,多空胜率为73.42%,多空收益最大回撤为-8.48%,多头年换手率为43.0倍。

中证500指数成分股内选股时,corr_VPlarge因子MA5的多空收益率为35.32%,多空胜率为67.63%,多空收益最大回撤为-10.53%,多头年换手率为41.5倍。

全市场选股时,corr_VRlaglarge因子MA5的多空收益率为29.28%,多空胜率为65.64%,多空收益最大回撤为-10.03%,多头年换手率为43.9倍。

中证500指数成分股内选股时,corr_VRlaglarge因子MA5的多空收益率为19.75%,多空胜率为58.59%,多空收益最大回撤为-16.30%,多头年换手率为42.2倍。

7

筛选因子考察

7.1 因子多空收益表现

根据上文分析结论,我们筛选了如下12个因子:real_skew(已实现偏度)、ret_intraday(日内收益率)、ratio_volumeH8(尾盘半小时成交量占比)、corr_VP(日内价量相关性)、corr_VRlag(量与滞后收益率相关性)、Amihud_illiq(Amihud非流动性因子)、ret_open2AH1(开盘价相对第一阶段集合竞价最高价的收益率)、ret_open2AL1(开盘价相对第一阶段集合竞价最低价的收益率)、ret_H8(尾盘半小时收益率)、real_skewlarge(大成交量已实现偏度)、corr_VPlarge(大成交量价量相关性)、corr_VRlaglarge(大成交量量与滞后收益率相关性)。

因子多空表现如下图所示,上述筛选出来的因子都展示出了不错的多空超额能力。但除了Amihud_illiq因子外,其他因子的正Alpha收益显著弱于负Alpha收益。

7.2 因子相对500超额收益表现

以中证500指数为基准,考察筛选因子的超额收益。在全市场进行周度调仓,选择因子值前10%的股票构建多头组合,按照T+1日开盘价换仓,交易费用为双边千分之二。

从扣费后的收益情况来看,corr_VRlag和corr_VRlaglarge相对中证500指数没有显著超额收益,其他因子相对中证500指数有正的超额收益。其中,超额收益最高的因子是Amihud_illiq,年化超额收益率为17.28%。Amihud_illiq因子的选股表现如下图所示。

7.3 不同因子“平滑”方法下性能比较

考察不同平滑方法下,因子选股性能的差异。除了5天和20天窗口的移动平均平滑MA5、MA20,本报告也比较EMA5和EMA20两种指数移动平滑下因子选股能力的差异。

从IC和多空收益的比较来看,大多数平滑后的因子相对原因子具有更高的IC和多空收益。在5天调仓的情景下,MA5处理相比MA20处理有更高的选股收益率。与简单加窗平均的MA5方法相比,5日指数移动平滑EMA5方法也值得考虑。

8

总结与展望

本报告从四类不同的角度构建因子:日内价格相关因子、日内价量相关因子、盘前信息因子、特定时段采样因子。考察了46个因子周频选股的表现。

采用IC和多空收益测试,筛选出12个周度选股能力较好的因子:real_skew(已实现偏度)、ret_intraday(日内收益率)、ratio_volumeH8(尾盘半小时成交量占比)、corr_VP(日内价量相关性)、corr_VRlag(量与滞后收益率相关性)、Amihud_illiq(Amihud非流动性因子)、ret_open2AH1(开盘价相对第一阶段集合竞价最高价的收益率)、ret_open2AL1(开盘价相对第一阶段集合竞价最低价的收益率)、ret_H8(尾盘半小时收益率)、real_skewlarge(大成交量已实现偏度)、corr_VPlarge(大成交量价量相关性)、corr_VRlaglarge(大成交量量与滞后收益率相关性)。

从因子表现来看,本报告筛选出来的因子都展示出了不错的多空超额能力。但除了Amihud_illiq因子外,其他因子的正Alpha收益显著弱于负Alpha收益。在扣除交易成本之后,因子多头组合相对基准超额收益低了很多。除了Amihud_illiq因子具有较高的相对500超额,其他因子年化超额收益基本上处于-1%~9%之间。如何更好的将上述高频因子的选股能力转化为多头的超额收益,是非常有实际意义的课题。

风险提示

策略模型并非百分百有效,市场结构及交易行为的改变以及类似交易参与者的增多有可能使得策略失效。

详细研究内容请参见广发金工专题报告

《多因子Alpha系列报告之四十一:高频价量数据的因子化方法》

法律声明:

本微信号推送内容仅供广发证券股份有限公司(下称“广发证券”)客户参考,其他的任何读者在订阅本微信号前,请自行评估接收相关推送内容的适当性,广发证券不会因订阅本微信号的行为或者收到、阅读本微信号推送内容而视相关人员为客户。

完整的投资观点应以广发证券研究所发布的完整报告为准。完整报告所载资料的来源及观点的出处皆被广发证券认为可靠,但广发证券不对其准确性或完整性做出任何保证,报告内容亦仅供参考。

在任何情况下,本微信号所推送信息或所表述的意见并不构成对任何人的投资建议。除非法律法规有明确规定,在任何情况下广发证券不对因使用本微信号的内容而引致的任何损失承担任何责任。读者不应以本微信号推送内容取代其独立判断或仅根据本微信号推送内容做出决策。

本微信号推送内容仅反映广发证券研究人员于发出完整报告当日的判断,可随时更改且不予通告。

本微信号及其推送内容的版权归广发证券所有,广发证券对本微信号及其推送内容保留一切法律权利。未经广发证券事先书面许可,任何机构或个人不得以任何形式翻版、复制、刊登、转载和引用,否则由此造成的一切不良后果及法律责任由私自翻版、复制、刊登、转载和引用者承担。返回搜狐,查看更多



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有